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正则 表达 式 - 简介 


除非 您 以 前 使 用 过 正则 表达 式 ， 否 则 您 可 能 不 熟悉 此 术语 。 但 是 ， 毫 无 疑问 ， 您 已 经 使 用 过 
不 涉及 脚本 的 某 些 正则 表达 式 概 念 。 


例如 ， 您 很 可 能 使 用 ? 和 通配符 来 查找 硬盘 上 的 文件 。 通 配 符 匹配 文件 名 中 的 单个 字符 ， 而 
通配符 匹配 需 个 或 多 个 字符 。 像 data?.dat 这 桩 的 模式 将 查找 下 列 文件 : 


datal.dat 
data2 .dat 
datax .dat 
dataN . dat 


使 用 字符 代替 ? 字符 扩大 了 找到 的 文件 的 数量 。data.dat 匹配 下 列 所 有 文件 : 


data. dat 
datal.dat 
data2 .dat 
data12 .dat 
datax .dat 
dataXxYZ .dat 


尽管 这 种 搜索 方法 很 有 用 ， 但 它 还 是 有 限 的 。 通 过 理解 * 通配符 的 工作 原理 ， 引 入 了 正则 表 
达 式 所 依赖 的 概念 ， 但 正则 表达 式 功能 更 强大 ， 而 且 更 加 灵活 。 


正则 表达 式 的 使 用 ， 可 以 通过 简单 的 办 法 来 实现 强大 的 功能 。 下 面 先 给 出 一 个 简单 的 示例 : 


A NN tS 


继续 阅读 本 教程 避让 您 也 可 以 自由 应 用 这 样 的 代码 。 


为 什么 使 用 正则 表达 式 ? 


典型 的 搜索 和 蔡 换 操作 要 求 您 提供 与 预期 的 搜索 结果 匹配 的 确切 文本 。 虽 然 这 种 技术 对 于 对 
静态 文本 执行 简单 搜索 和 蔡 换 任务 可 能 已 经 足够 了 ， 但 它 缺 乏 灵活 性 ， 若 采用 这 种 方法 搜索 
动态 文本 ， 即 使 不 是 不 可 能 ， 至 少 也 会 变 得 很 困难 。 


通过 使 用 正则 表达 式 ， 可 以 : 


。 测试 字符 串 内 的 模式 。 
例如 ， 可 以 测试 输入 字符 串 ， 以 查看 字符 串 内 是 否 出 现 电 话 号 码 模式 或 信用 卡号 码 模 
式 。 这 称 为 数据 验证 。 

。 蔡 换 文本 。 
可 以 使 用 正则 表达 式 来 识别 文档 中 的 特定 文本 ， 完 全 删除 该 文本 或 者 用 其 他 文本 替换 


它 。 
。 基于 模式 匹配 从 字符 串 中 提取 子 字 符 串 。 
可 以 查找 文档 内 或 输入 域内 特定 的 文本 。 


例如 ， 您 可 能 需要 搜索 整个 网 站 ， 删 除 过 时 的 材料 ， 以 及 蔡 换 某 些 HTML 格式 标记 。 在 这 种 
情况 下 ， 可 以 使 用 正则 表达 式 来 确定 在 每 个 文件 中 是 否 出 现 该 材料 或 该 HTML 格式 标记 。 此 
过 程 将 受 影响 的 文件 列表 缩小 到 包含 需要 删除 或 更 改 的 材料 的 那些 文件 。 然 后 可 以 使 用 正则 
表达 式 来 删除 过 时 的 材料 。 最 后 ， 可 以 使 用 正则 表达 式 来 搜索 和 替换 标记 。 


发 展 历 史 


正则 表达 式 的 "祖先 "可 以 一 直上 溯 至 对 人 类 神经 系统 如 何 工 作 的 早期 研究 。Warren McCulloch 
和 Walter Pitts 这 两 位 神经 生理 学 家 研究 出 一 种 数学 方式 来 描述 这 些 神 经 网 络 。 


1956 年 , 一 位 叫 Stephen Kleene 的 数学 家 在 McCulloch 和 Pitts 早期 工作 的 基础 上 ， 发 表 了 
一 篇 标题 为 "神经 网 事件 的 表示 法 "的 论文 ， 引 入 了 正则 表达 式 的 概念 。 正 则 表达 式 就 是 用 来 描 
述 他 称 为 "正则 集 的 代数 "的 表达 式 ， 因 此 采用 "正则 表达 式 "这 个 术语 。 


随后 ， 发 现 可 以 将 这 一 工作 应 用 于 使 用 Ken Thompson 的 计算 搜索 算法 的 一 些 早期 研究 ， 
Ken Thompson 是 Unix 的 主要 发 明 人 。 正 则 表达 式 的 第 一 个 实用 应 用 程序 就 是 Unix 中 的 
qed 编辑 器 。 


如 他 们 所 说 ， 剩 下 的 就 是 众所周知 的 历史 了 。 从 那 时 起 直至 现在 正则 表达 式 都 是 基于 文本 的 
编辑 器 和 搜索 工具 中 的 一 个 重要 部 分 。 


应 用 领域 


目前 ， 正 则 表达 式 已 经 在 很 多 软件 中 得 到 广泛 的 应 用 ， 包 括 *nix (Linux, Unix 等 ) 、HP 等 操 
作 系 统 ，PHP、C#、Java 等 开发 环境 ， 以 及 很 多 的 应 用 软件 中 ， 都 可 以 看 到 正则 表达 式 的 影 
子 。 


C# 正则 表达 式 
在 我 们 的 C# 教程 中 ，C# 正则 表达 式 这 一 章节 专门 介绍 了 有 关 C# 正则 表达 式 的 知识 。 
Java 正则 表达 式 


在 我 们 的 Java 教程 中 ，Java 正则 表达 式 这 一 章节 专门 介绍 了 有 关 Java 正则 表达 式 的 知 


误 。 


JavaScript 正则 表达 式 


在 我 们 的 JavaScript 教程 中 ，JavaScript RegExp 对 象 这 一 章节 专门 介绍 了 有 关 JavaScript 
正则 表达 式 的 知识 ， 同 时 我 们 还 提供 了 完整 的 JavaScript RegExp 对 象 参考 手册 。 


Python 正则 表达 式 

在 我 们 的 Python 基础 教程 中 ，Python 正则 表达 式 这 一 章节 专门 介绍 了 有 关 Python 正则 表 
达 式 的 知识 。 

Ruby 正则 表达 式 


在 我 们 的 Ruby 教程 中 ，Ruby 正则 表达 式 这 一 章节 专门 介绍 了 有 关 Ruby 正则 表达 式 的 知 


职 。 


正则 表达 式 - 语法 


正则 表达 式 (regular expression) 描 述 了 一 种 字符 串 匹 配 的 模式 ， 可 以 用 来 检查 一 个 串 是 否 含 有 
某 种 子 串 、 将 匹配 的 子 串 做 蔡 换 或 者 从 某 个 串 中 取出 符合 某 个 条 件 的 子 串 等 。 
。 列 目录 时 ， dir .tx 或 /s .txt 中 的 .txt 就 不 是 一 个 正则 表达 式 ,因为 这 里 与 正则 式 的 * 的 含义 
是 不 同 的 。 
。 构造 正则 表达 式 的 方法 和 创建 数学 表达 式 的 方法 一 样 。 也 就 是 用 多 种 元 字符 与 运算 符 可 
以 将 小 的 表达 式 结 合 在 一 起 来 创建 更 大 的 表达 式 。 正 则 表达 式 的 组 件 可 以 是 单个 的 字 
符 、 字 符 集合 、 字 符 范围 、 字 符 间 的 选择 或 者 所 有 这 些 组 件 的 任意 组 合 。 
正则 表达 式 是 由 普通 字符 (例如 字符 a 到 z) 以 及 特殊 字符 ( 称 为 "元 字符 ") 组 成 的 文字 模 
式 。 模 式 描述 在 搜索 文本 时 要 匹配 的 一 个 或 多 个 字符 串 。 正 则 表达 式 作为 一 个 模板 ， 将 某 个 
字符 模式 与 所 搜索 的 字符 串 进行 匹配 。 


普通 字符 


普通 字符 包括 没有 显 式 指定 为 元 字符 的 所 有 可 打印 和 不 可 打印 字符 。 这 包括 所 有 大 写 和 小 写 
字母 、 所 有 数字 、 所 有 标点 符号 和 一 些 其 他 符号 。 


非 打 印字 符 


非 打印 字符 也 可 以 是 正则 表达 式 的 组 成 部 分 。 下 表 列 出 了 表示 非 打印 字符 的 转 义 序列 : 


\cx ”匹配 由 x 指明 的 控制 字符 。 例 如 ， \cM 匹配 一 个 Control-M 或 回 车 符 。x 的 值 必须 


为 A-Z 或 a-z 之 一 。 否 则 ， 将 c 视 为 一 个 原 义 的 'c' 字符 。 

\f 匹配 一 个 换 页 符 。 等 价 于 \x0c 和 \cL。 

\n 匹配 一 个 换行 符 。 等 价 于 \x0a 和 \cJ。 

\r 匹配 一 个 回 车 符 。 等 价 于 \x0d 和 \cM。 

\s 匹配 任何 空白 字符 ， 包 括 空 格 、 制 表 符 、 换 页 符 等 等 。 等 价 于 [ \An\r\tWv]。 
\S ”匹配 任何 非 空白 字符 。 等 价 于 [^ \An\ritWv]。 

\t 匹配 一 个 制 表 符 。 等 价 于 \x09 和 \cl。 

WW 匹配 一 个 垂直 制 表 符 。 等 价 于 \x0b 和 \cK。 


特殊 字符 


所 谓 特 殊 字符 ， 就 是 一 些 有 特殊 含义 的 字符 ， 如 上 面 说 的 ".txt" 中 的 ， 简 单 的 说 就 是 表示 任何 
字符 串 的 意思 。 如 果 要 查找 文件 名 中 有 的 文件 ， 则 需要 对 进行 转 义 ， 即 在 其 前 加 一 个 \。 ls 


*.tXt。 


许多 元 字符 要 求 在 试图 匹配 它们 时 特别 对 待 。 若 要 匹配 这 些 特 殊 字 符 ， 必 须 首 先 使 字符 " 转 
义 "， 即 ， 将 反 斜 杠 字 符 () 放 在 它们 前 面 。 下 表 列 出 了 正则 表达 式 中 的 特殊 字符 : 


特 
子 
符 


¢ 匹配 输入 字符 串 的 结尾 位 置 。 如 果 设 置 了 RegExp 对 象 的 Multiline 属性 ， 则 $ 也 
匹配 \n' 或 \"。 要 匹配 $ 字符 本 身 ， 请 使 用 $。 


() le 子 表 达 式 可 以 获取 供 以 后 使 用 。 要 匹配 这 些 
用 (和 ) 


: 匹配 前 面 的 子 表 达 式 需 次 或 多 次 。 要 匹配 字符 ， 请 使 用 \。 
+ 匹配 前 面 的 子 表达 式 一 次 或 多 次 。 要 匹配 + 字符 ， 请 使 用 +。 
匹配 除 换行 符 m 之 外 的 任何 单字 符 。 要 匹配 .， 请 使 用 \。 

[ 标记 一 个 中 括号 表达 式 的 开始 。 要 匹配 [， 请 使 用 [。 


匹配 前 面 的 子 表达 式 雳 次 或 一 次 ， 或 指明 一 个 非 仿 楚 限定 符 。 要 匹配 ? 字符 ， 请 使 
用 \?。 


将 下 一 个 字符 标记 为 或 特殊 字符 、 或 原 义 字符 、 或 向 后 引用 、 或 八进制 转 义 符 。 例 
如 ，'n' 匹配 字符 'n'。M\n' 匹配 换行 符 。 序 列 \ 匹配 入 ， 而 "( 则 匹配 "("。 


匹配 输入 字符 串 的 开始 位 置 ， 除 非 在 方 括号 表达 式 中 使 用 ， 此 时 它 表 示 不 接受 该 字 
符 集 合 。 要 匹配 ^ 字符 本 身 ， 请 使 用 W。 


{ 标记 限定 符 表 达 式 的 开始 。 要 匹配 {， 请 使 用 {。 
| 旨 明 两 项 之 间 的 一 个 选择 。 要 匹配 |， 请 使 用 \ |。 


限定 符 


限定 符 用 来 指定 正则 表达 式 的 一 个 给 定 组 件 必须 要 出 现 多 少 次 才能 满足 匹配 。 有 * 或 + 或 ?或 {n} 
或 {n,} 或 {n,m} 共 6 种 。 


正则 表达 式 的 限定 符 有 : 


2 匹配 前 面 的 子 表达 式 需 次 或 多 次 。 例 如 ，zo 能 匹配 "z" 以 及 “zoo"。 等 价 于 
{0,}o 
匹配 前 面 的 子 表达 式 一 次 或 多 次 。 例 如 ，'zo+' 能 匹配 "zo" 以 及 "zoo"， 但 不 能 


匹配 "z"。+ 等 价 于 {1,}。 

5 匹配 前 面 的 子 表达 式 需 次 或 一 次 。 例 如 ，"do(es)?" 可 以 匹配 "do" 或 "does" 中 
| 的 "do" 。? 等 价 于 {0,1}。 

本 n 是 一 个 非 负 整数 。 匹 配 确定 的 n 次 。 例 如 ，'o{2}》' 不 能 匹配 "Bob" 中 的 '0'， 但 


是 能 匹配 "food" 中 的 两 个 o。 


人 n 是 一 个 非 负 整数 。 至 少 匹 配 n 次 。 例 如 ，'o{2,}》 不 能 匹配 "Bob" 中 的 'o'， 但 能 
匹配 "foooood" 中 的 所 有 0o。'o{1,} 等 价 于 'o+'。'of0》 则 等 价 于 'o”。 


m 和 均 为 非 负 整 数 ， 其 中 n <= m。 最 少 匹 配 n 次 且 最 多 匹配 m 次 。 例 
{nm} ”如 ，"o{1,3}" 将 匹配 "fooooood" 中 的 前 三 个 o。'o{0,17 等 价 于 'o?'。 请 注意 在 去 
号 和 两 个 数 之 间 不 能 有 空格 。 


由 于 章节 编号 在 大 的 输入 文档 中 会 很 可 能 超过 九 ， 所 以 您 需要 一 种 方式 来 处 理 两 位 或 三 位 章 
节 编号 。 限 定 符 给 您 这 种 能 力 。 下 面 的 正则 表达 式 匹 配 编号 为 任何 位 数 的 章节 标题 : 


/Chapter [1-9][0-9]*/ 
请 注意 ， 限 定 符 出 现在 范围 表达 式 之 后 。 因 此 ， 它 应 用 于 整个 范围 表达 式 ， 在 本 例 中 ， 只 指 
定 从 0 到 9 的 数字 (包括 0 和 9) 。 


这 里 不 使 用 + 限定 符 ， 因 为 在 第 二 个 位 置 或 后 面 的 位 置 不 一 定 需要 有 一 个 数字 。 也 不 使 用 ? 
字符 ， 因 为 它 将 章节 编号 限制 到 只 有 两 位 数 。 您 需要 至 少 匹配 Chapter 和 空格 字符 后 面 的 一 
个 数字 。 

如 果 您 知道 章节 编号 被 限制 为 只 有 99 章 ， 可 以 使 用 下 面 的 表达 式 来 至 少 指定 一 位 但 至 多 两 位 


/Chapter [0-9]{1,2}/ 


上 面 的 表达 式 的 缺点 是 ， 大 于 99 的 章节 编号 仍 只 匹配 开头 两 位 数字 。 另 一 个 缺点 是 Chapter 
0 也 将 匹配 。 只 匹配 两 位 数字 的 更 好 的 表达 式 如 下 : 


/Chapter [1-9][0-9]?/ 


> 
口 


/Chapter [1-9][90-9]{0,1}/ 


*、+ 和 ?3 限定 符 都 是 贪 禁 的 ， 因 为 它们 会 多 的 匹配 文字 ， 只 有 在 它们 的 后 面 加 上 一 个 ? 
就 可 以 实现 非 贫 楚 或 最 小 匹配 。 


例如 ， 您 可 能 搜索 HTML 文档 ， 以 查找 括 在 H1 标记 内 的 章节 标题 。 该 文本 在 您 的 文档 中 如 
下 : 


<H1>Chapter 1 - Introduction to Regular Expressions</H1> 


下 面 的 表达 式 匹 配 从 开始 小 于 符号 (<) 到 关闭 H1 标记 的 大 于 符号 (>) 之 间 的 所 有 内 容 。 


LN 


如 果 您 只 需要 匹配 开始 H1 标记 ， 下 面 的 " 非 贪 心 "表达 式 只 匹配 <H1>。 


WA 


通过 在 *、+ 或 ? 限定 符 之 后 放置 ?， 该 表达 式 从 "贪心 "表达 式 转换 为 " 非 贪心 "表达 式 或 者 最 小 
匹配 。 


定位 符 使 您 能 够 将 正则 表达 式 固定 到 行 首 或 行 尾 。 它 们 还 使 您 能 够 创建 这 样 的 正则 表达 式 ， 
这 些 正 则 表达 式 出 现在 一 个 单词 内 、 在 一 个 单词 的 开头 或 者 一 个 单词 的 结尾 。 

定位 符 用 来 描述 字符 串 或 单词 的 边界 ，^ 和 $ 分 别 指 字符 串 的 开始 与 结束 ，\b 描 述 单 词 的 前 或 后 
边界 ，\B 表 示 非 单词 边界 。 

正则 表达 式 的 限定 符 有 : 

站 描述 

关 匹配 输入 字符 串 开始 的 位 置 。 如 果 设 置 了 RegExp 对 象 的 Multiline 属性 ，^ 还 会 与 


v 或 之 后 的 位 置 匹配 。 


¢ 匹配 输入 字符 串 结 尾 的 位 置 。 如 果 设 置 了 RegExp 对 象 的 Multiline 属性 ，$ 还 会 与 
\ 或 \ 之 前 的 位 置 匹配 。 


\b 匹配 一 个 字 边 界 ， 即 字 与 空格 间 的 位 置 。 
\B ” 非 字 边 界 匹 配 。 


注意 : 不 能 将 限定 符 和 与 定位 点 一 起 使 用 。 由 于 在 紧 靠 换行 或 者 字 边 界 的 前 面 或 后 面 不 能 有 一 
个 以 上 位 置 ， 因 此 不 人 允许 诸如 入 之 类 的 表达 式 。 


若 要 匹配 一 行文 本 开始 处 的 文本 ， 请 在 正则 表达 式 的 开始 使 用 ^ 字符 。 不 要 将 ^ 的 这 种 用 法 
与 中 括号 表达 式 内 的 用 法 混淆 。 


若 要 匹配 一 行文 本 的 结束 处 的 文本 ， 请 在 正则 表达 式 的 结束 处 使 用 $ 字符 。 


若 要 在 搜索 章节 标题 时 使 用 定位 点 ， 下 面 的 正则 表达 式 匹 配 一 个 章节 标题 ， 该 标题 只 包含 两 
个 尾随 数字 ， 并 且 出 现在 行 首 : 


/^Chapter [1-9][0-9]{0,1}/ 


真正 的 章节 标题 不 仅 出 现行 的 开始 处 ， 而 且 它 还 是 该 行 中 仅 有 的 文本 。 它 即 出 现在 行 首 又 出 
现在 同一 行 的 结尾 。 下 面 的 表达 式 能 确保 指定 的 匹配 只 匹配 章节 而 不 匹配 交叉 引用 。 通 过 创 
建 只 匹配 一 行文 本 的 开始 和 结尾 的 正则 表达 式 ， 就 可 做 到 这 一 点 。 


/^Chapter [1-9][0-9]{0,1}$/ 


匹配 字 边 界 稳 有 不 同 ， 但 向 正则 表达 式 添加 了 很 重要 的 能 力 。 字 边界 是 单词 和 空格 之 间 的 位 
置 。 非 字 边 界 是 任何 其 他 位 置 。 下 面 的 表达 式 匹 配 单词 Chapter 的 开头 三 个 字符 ， 因 为 这 三 
个 字符 出 现 字 边界 后 面 : 


/\bcha/ 


\b 字符 的 位 置 是 非常 重要 的 。 如 果 它 位 于 要 匹配 的 字符 串 的 开始 ， 它 在 单词 的 开始 处 查找 匹 
配 项 。 如 果 它 位 于 字符 串 的 结尾 ， 它 在 单词 的 结尾 处 查找 匹配 项 。 例 如 ， 下 面 的 表达 式 匹 配 
单词 Chapter 中 的 字符 串 ter， 因 为 它 出 现在 字 边 界 的 前 面 : 


/ter\b/ 


下 面 的 表达 式 匹 配 Chapter 中 的 字符 串 apt， 但 不 匹配 aptitude 中 的 字符 串 apt : 


/\Bapt/ 


字符 串 apt 出 现在 单词 Chapter 中 的 非 字 边界 处 ， 但 出 现在 单词 aptitude 中 的 字 边 界 处 。 对 
于 \B 非 字 边界 运算 符 ， 位 置 并 不 重要 ， 因 为 匹配 不 关心 究竟 是 单词 的 开头 还 是 结尾 。 


选择 


用 圆 括号 将 所 有 选择 项 括 起 来 ， 相 邻 的 选择 项 之 间 用 | 分 隔 。 但 用 圆 括 号 会 有 一 个 副作用 ， 是 
相关 的 匹配 会 被 缓存 ， 此 时 可 用 ?: 放 在 第 一 个 选项 前 来 消除 这 种 副作用 。 


其 中 ?: 是 非 捕获 元 之 一 ， 还 有 两 个 非 捕获 元 是 ?= 和 ?!， 这 两 个 还 有 更 多 的 含义 ， 前 者 为 正 向 预 
查 ， 在 任何 开始 匹配 圆 括 号 内 的 正则 表达 式 模式 的 位 置 来 匹配 搜索 字符 串 ， 后 者 为 负 向 预 
查 ， 在 任何 开始 不 匹配 该 正则 表达 式 模式 的 位 置 来 匹配 搜索 字符 串 。 


反 回 引用 


对 一 个 正则 表达 式 模式 或 部 分 模式 两 边 添 加 圆 括号 将 导致 相关 匹配 存储 到 一 个 临时 缓冲 区 
中 ， 所 捕获 的 每 个 子 匹配 都 按照 在 正则 表达 式 模式 中 从 左 到 右 出 现 的 顺序 存储 。 缓 冲 区 编号 
从 1 开始 ， 最 多 可 存储 99 个 捕获 的 子 表达 式 。 每 个 缓冲 区 都 可 以 使 用 \n' 访问 ， 其 中 为 一 
个 标识 特定 缓冲 区 的 一 位 或 两 位 十 进 制 数 。 


可 以 使 用 非 捕获 元 字符 '?:"、'?=' 或 '?" 来 重 写 捕获 ， 忽 略 对 相关 匹配 的 保存 。 
反 向 引用 的 最 简单 的 、 最 有 用 的 应 用 之 一 ， 是 提供 查找 文本 中 两 个 相同 的 相 邻 单词 的 匹配 项 
的 能 力 。 以 下 面 的 句子 为 例 : 


IS is the cost of of gasoline going up up? 


上 面 的 句子 很 显然 有 多 个 重复 的 单词 。 如 果 能 设计 一 种 方法 定位 该 句子 ， 而 不 必 查 找 每 个 单 
词 的 重复 出 现 ， 那 该 有 多 好 。 下 面 的 正则 表达 式 使 用 单个 子 表达 式 来 实现 这 一 点 : 


/Ab([a-z]+) \1i\b/gi 


捕获 的 表达 式 ， 正 如 [a-z]+ 指定 的 ， 包 括 一 个 或 多 个 字母 。 正 则 表达 式 的 第 二 部 分 是 对 以 前 
捕获 的 子 匹 配 项 的 引用 ， 即 ， 单 词 的 第 二 个 匹配 项 正好 由 括号 表达 式 匹 配 。\1 指定 第 一 个 子 
匹配 项 。 字 边界 元 字符 确保 只 检测 整个 单词 。 否 则 ， 诸 如 "is issued" 或 "this is" 之 类 的 词组 将 不 
能 正确 地 被 此 表达 式 识 别 。 

正则 表达 式 后 面 的 全 局 标记 (g) 指示 ， 将 该 表达 式 应 用 到 输入 字符 串 中 能 够 查找 到 的 尽 可 能 多 
的 匹配 。 表 达 式 的 结尾 处 的 不 区 分 大 小 写 (i) 标记 指定 不 区 分 大 小 写 。 多 行 标记 指定 换行 符 的 
两 边 可 能 出 现 潜 在 的 匹配 。 

反 向 引用 还 可 以 将 通用 资源 指示 符 (URI) 分 解 为 其 组 件 。 假 定 您 想 将 下 面 的 URI 分 解 为 协议 
(ftp、http 等 等 ) 、 域 地 址 和 页 /路 径 


http://www.w3cschool.cc:80/html/html-tutorial.html 


下 面 的 正则 表达 式 提供 该 功能 : 


/NW+) MA (Nd*)?( [A# 1*)/ 


第 一 个 括号 子 表达 式 捕获 Web 地 址 的 协议 部 分 。 该 子 表达 式 匹 配 在 冒号 和 两 个 正 斜 杠 前 面 的 
任何 单词 。 第 二 个 括号 子 表达 式 捕 获 地 址 的 域 地 址 部 分 。 子 表达 式 匹 配 / 或 : 之 外 的 一 个 或 多 
个 字符 。 第 三 个 括号 子 表达 式 捕 获 端口 号 〈 如 果 指 定 了 的 话 ) 。 该 子 表达 式 匹 配 冒 号 后 面 的 
需 个 或 多 个 数字 。 只 能 重复 一 次 该 子 表 达 式 。 最 后 ， 第 四 个 括号 子 表达 式 捕获 Web 地 址 指定 
的 路 径 和 /或 页 信息 。 该 子 表达 式 能 匹配 不 包括 # 或 空格 字符 的 任何 字符 序列 。 


将 正则 表达 式 应 用 到 上 面 的 URI， 各 子 匹配 项 包含 下 面 的 内 容 : 


。 第 一 个 括号 子 表达 式 包含 "http" 

。 第 二 个 括号 子 表 达 式 包含 "www.w3cschool.cc" 

。 第 三 个 括号 子 表达 式 包含 ":80" 

。 第 四 个 括号 子 表达 式 包含 "html/html-tutorial.html" 


正则 表达 


式 - 元 字符 


下 表 包 含 了 元 字符 的 完整 列表 以 及 它们 在 正则 表达 式 上 下 文中 的 行为 : 


字符 


(pattern ) 


(?:pattern) 


描述 


将 下 一 个 字符 标记 为 一 个 特殊 字符 、 或 一 个 原 义 字符 、 或 一 个 向 后 引用 、 
或 一 个 八进制 转 义 符 。 例 如 ，'n' 匹配 字符 "n"。'\n' 匹配 一 个 换行 符 。 序 列 
\ 匹配 V 而 "(" 则 匹配 "("。 


匹配 输入 字符 串 的 开始 位 置 。 如 果 设 置 了 RegExp 对 象 的 Multiline 属性 ，^ 
也 匹配 \n' 或 \r' 之 后 的 位 置 。 


匹配 输入 字符 串 的 结束 位 置 。 如 果 设 置 了 RegExp 对 象 的 Multiline 属性 ，$ 
也 匹配 \n' 或 Ar 之 前 的 位 置 。 


匹配 前 面 的 子 表达 式 需 次 或 多 次 。 例 如 ，zo 能 匹配 "以 及 "zo0"。 等 价 
二 人 


匹配 前 面 的 子 表 达 式 一 次 或 多 次 。 例 如 ，'zo+' 能 匹配 "zo" 以 及 "zoo"， 但 
不 能 匹配 "z"。+ 等 价 于 {1,}。 


匹配 前 面 的 子 表达 式 堆 次 或 一 次 。 例 如 ，"do(es)?" 可 以 匹配 "do" 或 
"does" 中 的 "do" 。? 等 价 于 {0,1}。 


n 是 一 个 非 负 整数 。 匹 配 确定 的 n 次 。 例 如 ，'o{2)' 不 能 匹配 "Bob" 中 的 
'o'， 但 是 能 匹配 "food" 中 的 两 个 o。 


n 是 一 个 非 负 整数 。 至 少 匹 配 n 次 。 例 如 ，'o{2,}》 不 能 匹配 "Bob" 中 的 'o0，， 
但 能 匹配 "foooood" 中 的 所 有 o。'of1, 等 价 于 '0+'。'o{0,》 则 等 价 于 '0*'。 


m 和 mn 均 为 非 负 整 数 ， 其 中 n <= m。 最 少 匹 配 n 次 且 最 多 匹配 m 次 。 例 
如 ，"o{1,3}" 将 匹配 "fooooood" 中 的 前 三 个 o。'of0,1} 等 价 于 '"o?'。 请 注 
意 在 逗号 和 两 个 数 之 间 不 能 有 空格 。 


当 该 字符 紧 跟 在 任何 一 个 其 他 限制 符 (*, +, ?, {n}, {n,}, {n,m}) 后 面 时 ， 匹 配 
模式 是 非 贫 梦 的 。 非 贫 梦 模式 尽 可 能 少 的 匹配 所 搜索 的 字符 串 ， 而 默认 的 
贪 楚 模 式 则 尽 可 能 多 的 匹配 所 搜索 的 字符 串 。 例 如 ， 对 于 字符 串 
"0000"，'0+?' 将 匹配 单个 "o"， 而 'o+' 将 匹配 所 有 'o'。 


匹配 除 "\n" 之 外 的 任何 单个 字符 。 要 匹配 包括 \n' 在 内 的 任何 字符 ， 请 使 用 
象 [.\n] 的 模式 。 


匹配 pattern 并 获取 这 一 匹配 。 所 获取 的 匹配 可 以 从 产生 的 Matches 集合 
得 到 ， 在 VBScript 中 使 用 SubMatches 集合 ， 在 JScript 中 则 使 用 $0...$9 
属性 。 要 匹配 圆 括号 字符 ， 请 使 用 '"( 或 )。 


匹配 pattern 但 不 获取 匹配 结果 ， 也 就 是 说 这 是 一 个 非 获取 匹配 ， 不 进行 存 
储 供 以 后 使 用 。 这 在 使 用 "或 " 字符 (|) 来 组 合 一 个 模式 的 各 个 部 分 是 很 有 
用 。 例 如 ， "industr(?:ylies) 就 是 一 个 比 'industrylindustries' 更 简略 的 表达 
式 。 


正 向 预 查 ， 在 任何 匹配 pattern 的 字符 串 开始 处 匹配 查找 字符 串 。 这 是 一 个 
非 获 取 匹 配 ， 也 就 是 说 ， 该 匹配 不 需要 获取 供 以 后 使 用 。 例 如 ，'"Windows 


(2 (?=95|98|INTI2000) 能 匹配 "Windows 2000" 中 的 "Windows" ， 但 不 能 

=pattern) 配 "Windows 3.1" 中 的 "Windows"。 预 查 不 消耗 字符， 也 就 是 说 ， 在 一 个 
匹配 发 生 后 ， 在 最 后 一 次 匹配 之 后 立即 开始 下 一 次 匹配 的 搜索 ， 而 不 是 从 
包含 预 查 的 字符 之 后 开始 。 


负 向 预 查 ， 在 任何 不 匹配 pattern 的 字符 串 开始 处 匹配 查找 字符 串 。 这 是 一 
个 非 获取 匹配 ， 也 就 是 说 ， 该 匹配 不 需要 获取 供 以 后 使 用 。 例 如 '\Windows 
(?195|98|NTI2000)' 能 匹配 "Windows 3.1" 中 的 "Windows"， 但 不 能 匹配 

"Windows 2000" 中 的 "Windows"。 预 查 不 消耗 字符 ， 也 就 是 说 ， 在 一 个 匹 
配 发 生 后 ， 在 最 后 一 次 匹配 之 后 立即 开始 下 一 次 匹配 的 搜索 ， 而 不 是 从 包 
含 预 查 的 字符 之 后 开始 。 


光 匹配 Xx 或 y。 例 如 ，'zlfood' 能 匹配 "z" 或 "food"。'(zlphood' 则 匹配 "zood" 
Y 或 "food"。 


[xyz] 字符 集合 。 匹 配 所 包含 的 任意 一 个 字符 。 例 如 ， '[abc] 可 以 匹配 "plain" 中 
的 'a'。 


(?lpattern) 


和 负 值 字符 集合 。 匹 配 未 包含 的 任意 字符 。 例 如 ， '[^abc]' 可 以 匹配 "plain" 
中 的 pu 


字符 范围 。 匹 配 指定 范围 内 的 任意 字符 。 例 如 ，'[a-z]' 可 以 匹配 'a' 到 'z 范 


国内 的 任意 小 写字 母 字符 。 

[Aa-z] 负 值 字符 范围 。 匹配 任何 不 在 指定 范围 内 的 任意 字符 。 例 如 ，'[^a-z]' 可 以 
匹配 任何 不 在 'a' 到 'z' 范围 内 的 任意 字符 。 

\b 匹配 一 个 单词 边界 ， 也 就 是 指 单词 和 空格 间 的 位 置 。 例 如 ，'er\b' 可 以 匹 
配 "never" 中 的 'er， 但 不 能 匹配 "verb" 中 的 'er'。 

\B 匹配 非 单 词 边 界 。'en\B' 能 匹配 "verb" 中 的 'er， 但 不 能 匹配 "never" 中 的 
er。 

匹配 由 x 指明 的 控制 字符 。 例如 ， \cM 匹配 一 个 Control-M 或 回 车 符 。x 
的 值 必须 为 A-Z 或 arz 之 一 。 否 则 ， 将 c 视 为 一 个 原 义 的 'c 字符 。 

\d 匹配 一 个 数字 字符 。 等 价 于 [0-9]。 

\D 匹配 一 个 非 数 字 字符 。 等 价 于 [^0-9]。 

\f 匹配 一 个 换 页 符 。 等 价 于 \x0c 和 \cL。 

\n 匹配 一 个 换行 符 。 等 价 于 \x0a 和 \cJ。 

\r 匹配 一 个 回 车 符 。 等 价 于 \x0d 和 \cM。 

\s 匹配 任何 空白 字符 ， 包 括 空 格 、 制 表 符 、 换 页 符 等 等 。 等 价 于 [ \fnAnt\v]。 

\S 匹配 任何 非 空白 字符 。 等 价 于 [^ \An\r\tWv]。 

\t 匹配 一 个 制 表 符 。 等 价 于 \x09 和 \cl。 

\v 匹配 一 个 垂直 制 表 符 。 等 价 于 \x0b 和 \cK。 

\w 匹配 包括 下 划 线 的 任何 单词 字符 。 等 价 于 '[A-Za-z0-9_]。 

\W 匹配 任何 非 单词 字符 。 等 价 于 '[^A-Za-z0-9_]。 


匹配 n， 其 中 n 为 十 六 进 制 转 义 值 。 十 六 进 制 转 义 值 必须 为 确定 的 两 个 数 


\xn 


\num 


\nm 


\nml 


\un 


字 关 。 例 如 ，"\x41' 匹配 "A"。"\x041' 则 等 价 于 \x04' & "1"。 正 则 表达 式 中 
可 以 使 用 ASCII 编码 。 


匹配 num， 其 中 num 是 一 个 正 整 数 。 对 所 获取 的 匹配 的 引用 。 例 
如 ，"(.)\1' 匹配 两 个 连续 的 相同 字符 。 


标识 一 个 八进制 转 义 值 或 一 个 向 后 引用 。 如 果 \ 之 前 至 少 n 个 获取 的 子 表 
达 式 ， 则 n 为 向 后 引用 。 否 则 ， 如 果 n 为 八进制 数字 (0-7)， 则 n 为 一 个 八 
进 制 转 义 值 。 


标识 一 个 八进制 转 义 值 或 一 个 向 后 引用 。 如 果 \nm 之 前 至 少 有 nm 个 获得 
子 表 达 式 ， 则 nm 为 向 后 引用 。 如 果 \nm 之 前 至 少 有 mn 个 获取 ， 则 n 为 一 
个 后 跟 文字 m 的 向 后 引用 。 如 果 前 面 的 条 件 都 不 满足 ， 若 n 和 m 均 为 八 
进 制 数字 (0-7)， 则 \nm 将 匹配 八进制 转 义 值 nm。 


如 果 mn 为 八进制 数字 (0-3)， 且 m 和 1 均 为 八进制 数字 (0-7)， 则 匹配 八 进 
制 转 义 值 nml。 


匹配 n， 其 中 n 是 一 个 用 四 个 十 六 进 制 数 字 表 示 的 Unicode 字符 。 例 如 ， 
\u00A9 匹配 版 权 符 号 (?)。 


正则 表达 式 - 运算 符 优 先 级 


正则 表达 式 从 左 到 右 进 行 计算 ， 并 遵循 优先 级 顺序 ， 这 与 算术 表达 式 非常 类 似 。 
相同 优先 级 的 从 左 到 右 进行 运算 ， 不 同 优先 级 的 运算 先 高 后 低 。 下 表 从 最 高 到 最 低 说 明了 各 
种 正则 表达 式 运算 符 的 优先 级 顺序 : 
运算 符 描述 
\ 转 义 符 


0 中 让。 国 括号 和 方 括号 


十 ， 2 {Nn}, 


rn 限定 符 

^, $, \ 任 何 

元 字符 、 任 。 定位 点 和 序列 ( 即 : 位 置 和 顺序 ) 
何 字 符 


替换 ，" 或 "操作 字符 具有 高 于 人 替换 运算 符 的 优先 级 ， 使 得 "mlfood" 匹 
| 配 "m" 或 "food"。 若 要 匹配 "mood" 或 "food"， 请 使 用 插 号 创建 子 表 达 式 ， 从 
而 产生 "(mlf)ood"。 


正则 表达 式 - 匹配 规则 
基本 模式 匹配 


一 切 从 最 基本 的 开始 。 模 式 ， 是 正规 表达 式 最 基本 的 元 素 ， 它 们 是 一 组 描述 字符 串 特 征 的 字 
符 。 模 式 可 以 很 往 单 ， 由 普通 的 字符 串 组 成 ， 也 可 以 非常 复杂 ， 往 往 用 特殊 的 字符 表示 一 个 
范围 内 的 字符 、 重 复出 现 ， 或 表示 上 下 文 。 例 如 : 


这 个 模式 包含 一 个 特殊 的 字符 ^， 表 示 该 模式 只 匹配 那些 以 once 开 头 的 字符 串 。 例 如 该 模式 与 


字符 串 "once upon a time" 匹 配 ， 和 与 "There once was a man from NewYork" 不 匹配 。 正 如 如 人 ^ 
符号 表示 开头 一 样 ，$ 符 号 用 来 匹配 那些 以 给 定 模 式 结 尾 的 字符 串 。 


bucket$ 


这 个 模式 与 "Who kept all of this cash in a bucket" 匹 配 ， 与 "buckets" 不 匹配 。 字 符 ^ 和 $ 同 时 使 
用 时 ， 表 示 精 确 匹 配 (字符 串 与 模式 一 样 ) 。 例 如 : 


Abucket$ 


只 匹配 字符 串 "bucket"。 如 果 一 个 模式 不 包括 ^ 和 $， 那 么 它 与 任何 包含 该 模式 的 字符 串 匹 配 。 
例如 : 模式 


once 


There once was a man from NewYork 
Who kept all of his cash in a bucket. 


是 匹配 的 。 


在 该 模式 中 的 字母 (o-n-c-e) 是 字面 的 字符 ， 也 就 是 说 ， 他 们 表示 该 字母 本 身 ， 数 字 也 是 一 样 
的 。 其 他 一 些 稍微 复 条 的 字符 ， 如 标点 符号 和 白字 符 (空格 、 制 表 符 等 ) ， 要 用 到 转 义 序 
列 。 所 有 的 转 义 序列 都 用 反 斜 杠 () 打 头 。 制 表 符 的 转 义 序列 是 : tt。 所 以 如 果 我 们 要 检测 一 个 
字符 串 是 否 以 制 表 符 开 头 ， 可 以 用 这 个 模式 : 


ANE 


类 似 的 ， 用 \n 表 示 " 新 行 "，NV 表 示 回 车 。 其 他 的 特殊 符号 ， 可 以 用 在 前 面 加 上 反 斜 枉 ， 如 反 斜 
杠 本 身 用 \ 表 示 ， 句 号 .用 .表示 ， 以 此 类 推 。 


字符 族 


在 INTERNET 的 程序 中 ， 正 规 表 达 式 通常 用 来 验证 用 户 的 输入 。 当 用 户 提交 一 个 FORM 以 
后 ， 要 判断 输入 的 电话 号 码 、 地 址 、EMAIL 地 址 、 信 用 卡号 码 等 是 否 有 效 ， 用 普通 的 基于 字 
面 的 字符 是 不 够 的 。 


所 以 要 用 一 种 更 自由 的 描述 我 们 要 的 模式 的 办 法 ， 它 就 是 字符 簇 。 要 建立 一 个 表示 所 有 元 音 
字符 的 字符 艇 ， 就 把 所 有 的 元 音字 符 放 在 一 个 方 括号 里 : 


[AaEeIiOoUu] 


这 个 模式 与 任何 元 音字 符 匹 配 ， 但 只 能 表示 一 个 字符 。 用 连 字号 可 以 表示 一 个 字符 的 范围 ， 
如 : 


[a-z] // 匹 配 所 有 的 小 写字 母 

[A-Z] // 匹 配 所 有 的 大 写字 母 

[a-zA-Z] // 匹 配 所 有 的 字母 

[0-9] // 匹 配 所 有 的 数字 

[9-9\.\-] // 匹 配 所 有 的 数字 ， 句 号 和 减 号 
[ \f\r\t\n] // 匹 配 所 有 的 白字 符 


同样 的 ， 这 些 也 只 表示 一 个 字符 ， 这 是 一 个 非常 重要 的 。 如 果 要 匹配 一 个 由 一 个 小 写字 母 和 
一 位 数字 组 成 的 字符 串 ， 上 比如 "z2"、"t6" 或 "g7"， 但 不 是 "ab2"、"r2d3" 或 "b52" 的 话 ， 用 这 个 模 
式 : 


^[a-z][0-9]$ 


尽管 [a-z] 代 表 26 个 字母 的 范围 ， 但 在 这 里 它 只 能 与 第 一 个 字符 是 小 写字 母 的 字符 串 匹 配 。 


前 面 鲁 经 提 到 ^ 表 示 字 符 串 的 开头 ， 但 它 还 有 另外 一 个 含义 。 当 在 一 组 方 括 号 里 使 用 ^ 是 ， 它 表 
示 " 非 "或 "排除 "的 意思 ， 常 常用 来 剔除 某 个 字符 。 还 用 前 面 的 例子 ， 我 们 要 求 第 一 个 字符 不 能 
是 数字 : 


^[^0-9][0-9]$ 


这 个 模式 与 "&5"、"g7" 及 "-2" 是 匹配 的 ， 但 与 "12"、"66" 是 不 匹配 的 。 下 面 是 几 个 排除 特定 字 
符 的 例子 : 
[^a-z] // 除 了 小 写字 母 以 外 的 所 有 字符 


[A\AXNAA] // 除 了 (\)(/)(^) 之 外 的 所 有 字符 
[^\"\'] // 除 了 双 引 号 (") 和 单 引号 (') 之 外 的 所 有 字符 


特殊 字符 "." (点 ， 句 号 ) 在 正规 表达 式 中 用 来 表示 除了 "新 行 "之 外 的 所 有 字符 。 所 以 模 
式 "^.59$" 与 任何 两 个 字符 的 、 以 数字 5 结尾 和 以 其 他 非 "新 行 "字符 开头 的 字符 串 匹 配 。 模 式 "." 可 
以 匹配 任何 字符 串 ， 除 了 空 串 和 只 包括 一 个 "新 行 "的 字符 串 。 


PHP 的 正规 表达 式 有 一 些 内 置 的 通用 字符 徐 ， 列 表 如 下 : 


字符 簇 描述 
[[:alpha:]] 任何 字母 
[[:digit:]] 任何 数字 
[[:alnum:]] 任何 字母 和 数字 
[[:space:]] 任何 空白 字符 
[[:upper:]] 任何 大 写字 母 
[[:lower:]] 任何 小 写字 母 
[[:punct:]] 任何 标点 符号 
[[:xdigit:]] 任何 16 进 制 的 数字 ， 相 当 于 [0-9a-fA-F] 


确定 重复 出 现 


到 现在 为 止 ， 你 已 经 知道 如 何 去 匹 配 一 个 字母 或 数字 ， 但 更 多 的 情况 下 ， 可 能 要 匹配 一 个 单 
词 或 一 组 数字 。 一 个 单词 有 若干 个 字母 组 成 ， 一 组 数字 有 若干 个 单数 组 成 。 跟 在 字符 或 字符 
符 后 面 的 花 括号 ({) 用 来 确定 前 面 的 内 容 的 重复 出 现 的 次 数 。 


字符 得 描述 
^[a-zA-Z_]$ 所 有 的 字母 和 下 划 线 
^[[:alpha:]]{3}$ 所 有 的 3 个 字母 的 单词 
^a$ 字母 a 
^a{4}$ aaaa 
^a{2,4}$ aa,aaa 或 aaaa 
^a{1,3}$ a,aa 或 aaa 
^a{2,}$ 包含 多 于 两 个 a 的 字符 串 
^a{2,} 如 : aardvark 和 aaab， 但 apple 不 行 
a{2,} 如 : baad 和 aaa， 但 Nantucket 不 行 
\t{2} 两 个 制 表 符 


.{2} 所 有 的 两 个 字符 


这 些 例子 描述 了 花 括 号 的 三 种 不 同 的 用 法 。 一 个 数字 ，{x} 的 意思 是 "前 面 的 字符 或 字符 艇 只 出 
现 X 次 " ; 一 个 数字 加 逗号 ，{x,} 的 意思 是 "前 面 的 内 容 出 现 x 或 更 多 的 次 数 " ; 两 个 用 逗号 分 隔 的 
数字 ，{x,y} 表 示 " 前 面 的 内 容 至 少 出 现 x 次 ， 但 不 超过 y 次 "。 我 们 可 以 把 模式 扩展 到 更 多 的 单词 
或 数字 : 

人 ^[a-zA-Z0-9_]{1,}$ // 所 有 包含 一 个 以 上 的 字母 、 数 字 或 下 划 线 的 字符 串 

人 ^[0-9]{1,}$ // 所 有 的 正 数 


A\-{t9,1}[6-9]{1, }$ // 所 有 的 整数 
人 \-{0,1}[0-9]{9,}\.{9,1}[9-9]{0,}$ // 所 有 的 小 数 


最 后 一 个 例子 不 太 好 理解 ， 是 吗 ? 这 么 看 吧 : 与 所 有 以 一 个 可 选 的 负 号 (-{0,1)) 开 头 (^)、 跟 着 0 
个 或 更 多 的 数字 ([0-9]{0,))、 和 一 个 可 选 的 小 数 点 (.{0,1)) 再 跟 上 0 个 或 多 个 数字 ([0-9](0,))， 并 且 
没有 其 他 任何 东西 ($)。 下 面 你 将 知道 能 够 使 用 的 更 为 简单 的 方法 。 


特殊 字符 "?" 与 {0,1} 是 相等 的 ， 它 们 都 代表 着 : "0 个 或 1 个 前 面 的 内 容 " 或 "前 面 的 内 容 是 可 选 
的 "。 所 以 刚才 的 例子 可 以 简化 为 : 


A\-?[0-9]{0,}\.?[0-9]{0,}$ 


特殊 字符 与 {0,} 是 相等 的 ， 它 们 都 代表 着 "0 个 或 多 个 前 面 的 内 容 "。 最 后 ， 字 符 "+" 与 {1,) 是 相 
等 的 ， 表 示 "1 个 或 多 个 前 面 的 内 容 "， 所 以 上 面 的 4 个 例子 可 以 写成 : 

人 ^[a-zA-Z0-9_]+$ // 所 有 包含 一 个 以 上 的 字母 、 数 字 或 下 划 线 的 字符 串 

人 ^[0-9]+$ // 所 有 的 正 数 


AX-?[9-9]+$ // 所 有 的 整数 
A\-?[0-9]*\.?[9-9]*$ // 所 有 的 小 数 


当然 这 并 不 能 从 技术 上 降低 正规 表达 式 的 复杂 性 ， 但 可 以 使 它们 更 容易 阅读 。 


正则 表达 式 - 示例 


简单 表达 式 

正则 表达 式 的 最 简单 形式 是 在 搜索 字符 串 中 匹配 其 本 身 的 单个 普通 字符 。 例 如 ， 单 字符 模 
式 ， 如 A， 不论 出 现在 搜索 字符 串 中 的 何 处 ， 它 总 是 匹配 字母 A。 下 面 是 一 些 单字 符 正则 表达 
式 模式 的 示例 : 


/a/ 
/7/ 
/M/ 


可 以 将 许多 单字 符 组 合 起 来 以 形成 大 的 表达 式 。 例 如 ， 以 下 正则 表达 式 组 合 了 单字 符 表 达 
式 :a、7 和 M。 


/a7M/ 


请 注意 ， 没 有 串联 运算 符 。 只 须 在 一 个 字符 后 面 键 人 另 一 个 字符 。 


字符 匹配 


句点 (.) 匹配 字符 串 中 的 各 种 打印 或 非 打 印字 符 ， 只 有 一 个 字符 例外 。 这 个 例外 就 是 换行 符 
(n)。 下 面 的 正则 表达 式 匹 配 aac、abc、acc、adc 等 等 ， 以 及 a1c、a2c、a-c 和 a#c : 


/a.c/ 


若 要 匹配 包含 文件 名 的 字符 串 ， 而 句点 (.) 是 输入 字符 串 的 组 成 部 分 ， 请 在 正则 表达 式 中 的 名 
点 前 面 加 反 斜 红 () 字符 。 举 例 来 说 明 ， 下 面 的 正则 表达 式 匹 配 filename.ext : 


/filename\.ext/ 


这 些 表 达 式 只 让 您 匹配 "任何 "单个 字符 。 可 能 需要 匹配 列表 中 的 特定 字符 组 。 例 如 ， 可 能 需 
查找 用 数字 表示 的 章节 标题 (Chapter 1、Chapter 2 等 等 ) 。 


甘 


括号 表达 式 


若 要 创建 匹配 字符 组 的 一 个 列表 ， 请 在 方 括号 〈[ 和 ]) 内 放置 一 个 或 更 多 单个 字符 。 当 字符 
括 在 中 括号 内 时 ， 该 列表 称 为 "中 括号 表达 式 "。 与 在 任何 别 的 位 置 一 样 ， 普 通 字符 在 中 括号 内 
表示 其 本 身 ， 即 ， 它 在 输入 文本 中 匹配 一 次 其 本 身 。 大 多 数 特殊 字符 在 中 括号 表达 式 内 出 现 
时 失去 它们 的 意义 。 不 过 也 有 一 些 例外 ， 如 : 


。 如 果 ] 字符 不 是 第 一 项 ， 它 结束 一 个 列表 。 若 要 匹配 列表 中 的 ] 字符 ， 请 将 它 放 在 第 一 
位 ， 紧 跟 在 开始 [后 面 。 
。\ 字符 继续 作为 转 义 符 。 若 要 匹配 \ 字符 ， 请 使 用 \。 


括 在 中 括号 表达 式 中 的 字符 只 匹配 处 于 正则 表达 式 中 该 位 置 的 单个 字符 。 以 下 正则 表达 式 匹 
配 Chapter 1、Chapter 2、Chapter 3、Chapter 4 和 Chapter 5 : 


/Chapter [12345]/ 


请 注意 ， 单 词 Chapter 和 后 面 的 空格 的 位 置 相对 于 中 括号 内 的 字符 是 固定 的 。 中 括号 表达 式 
指定 的 只 是 匹配 紧 跟 在 单词 Chapter 和 空格 后 面 的 单个 字符 位 置 的 字符 集 。 这 是 第 九 个 字符 
位 置 。 


知 要 使 用 范围 代替 字 符 本 身 来 表示 匹配 字符 组 ， 请 使 用 连 字符 (-) 将 范围 中 的 开始 字符 和 结束 
字符 分 开 。 单 个 字符 的 字符 值 确定 范围 内 的 相对 顺序 。 下 面 的 正则 表达 式 包 含 范 围 表达 式 ， 
该 范围 表达 式 等 效 于 上 面 显示 的 中 括号 中 的 列表 。 


/Chapter [1-5]/ 


当 以 这 种 方式 指定 范围 时 ， 开 始 值 和 结束 值 两 者 都 包括 在 范围 内 。 注 意 ， 还 有 一 点 很 重要 ， 
按 Unicode 排序 顺序 ， 开 始 值 必须 在 结束 值 的 前 面 。 
若 要 在 中 括号 表达 式 中 包括 连 字 符 ， 请 采用 下 列 方法 之 一 : 

。 用 反 斜 红 将 它 转 义 : 


[\-] 


。 将 连 字符 放 在 中 括号 列表 的 开始 或 结尾 。 下 面 的 表达 式 匹 配 所 有 小 写字 母 和 连 字符 : 


[-a-z] 
[a-z-] 


。 创建 一 个 范围 ， 在 该 范围 中 ， 开 始 字符 值 小 于 连 字 符 ， 而 结束 字符 值 等 于 或 大 于 连 字 
符 。 下 面 的 两 个 正则 表达 式 都 满足 这 一 要 求 : 


若 要 查找 不 在 列表 或 范围 内 的 所 有 字符 ， 请 将 插入 符号 (^) 放 在 列表 的 开头 。 如 果 插 入 字符 出 
现在 列表 中 的 其 他 任何 位 置 ， 则 它 匹 配 其 本 身 。 下 面 的 正则 表达 式 匹 配 编号 大 于 5 的 章节 标 


题 : 

/Chapter [^12345]/ 
在 上 面 的 示例 中 ， 表 达 式 在 第 九 个 位 置 匹配 1、2、3、4 或 5 之 外 的 任何 数字 字符 。 这 样 ， 例 
如 ，Chapter 7 就 是 一 个 匹配 项 ，Chapter 9 也 是 一 个 匹配 项 。 
上 面 的 表达 式 可 以 使 用 连 字 符 (-) 来 表示 : 

/Chapter [^1-5]/ 
中 括号 表达 式 的 典型 用 途 是 指定 任何 大 写 或 小 写字 母 或 任何 数字 的 匹配 。 下 面 的 表达 式 指定 
这 样 的 匹配 : 


/[A-Za-z0-9]/ 


蔡 换 和 分 组 


替换 使 用 | 字符 来 允许 在 两 个 或 多 个 替换 选项 之 间 进 行 选择 。 例 如 ， 可 以 扩展 章节 标题 正则 表 
达 式 ， 以 返回 比 章 标题 范围 更 广 的 匹配 项 。 但 是 ， 这 并 不 象 您 可 能 认为 的 那样 简单 。 蔡 换 匹 
配 | 字符 任 一 侧 最 大 的 表达 式 。 


您 可 能 认为 ， 下 面 的 表达 式 匹 配 出 现在 行 首 和 行 尾 、 后 面 跟 一 个 或 两 个 数字 的 Chapter 或 
Section : 


/^Chapter|Section [1-9][0-9]{19,1}$/ 


很 遗憾 ， 上 面 的 正则 表达 式 要 么 匹配 行 首 的 单词 Chapter， 要 么 匹配 行 尾 的 单词 Section 及 跟 
在 其 后 的 任何 数字 。 如 果 输 入 字符 串 是 Chapter 22， 那 么 上 面 的 表达 式 只 匹配 单词 
Chapter。 如 果 输 入 字符 串 是 Section 22， 那 么 该 表达 式 匹 配 Section 22。 


若 要 使 正则 表达 式 更 易于 控制 ， 可 以 使 用 括号 来 限制 替换 的 范围 ， 即 ， 确 保 它 只 应 用 于 两 个 
单词 Chapter 和 Section。 但 是 ， 括 号 也 用 于 创建 子 表达 式 ， 并 可 能 捕获 它们 以 供 以 后 使 用 ， 
这 一 点 在 有 关 反 向 引用 的 那 一 节 讲 述 。 通 过 在 上 面 的 正则 表达 式 的 适当 位 置 添加 括号 ， 就 可 
以 使 该 正则 表达 式 匹 配 Chapter 1 或 Section 3。 


下 面 的 正则 表达 式 使 用 括号 来 组 合 Chapter 和 Section， 以 便 表 达 式 正确 地 起 作用 : 


/^(Chapter|Section) [1-9][0-9]{0,1}$/ 


尽管 这 些 表 达 式 正常 工作 ， 但 Chapter|Section 周围 的 括号 还 将 捕获 两 个 匹配 字 中 的 任 一 个 供 
以 后 使 用 。 由 于 在 上 面 的 表达 式 中 只 有 一 组 括号 ， 因 此 ， 只 有 一 个 被 捕获 的 " 子 匹 配 项 "。 


在 上 面 的 示例 中 ， 您 只 需要 使 用 括号 来 组 合 单词 Chapter 和 Section 之 间 的 选择 。 若 要 防止 
匹配 被 保存 以 各 将 来 使 用 ， 请 在 括号 内 正则 表达 式 模 式 之 前 放置 ?:。 下 面 的 修改 提供 相同 的 
能 力 而 不 保存 子 匹配 项 : 


/^(?:Chapter|Section) [1-9][0-9]{0,1}$/ 


除 ?: 元 字符 外 ， 两 个 其 他 非 捕获 元 字符 创建 被 称 为 "预测 先行 "匹配 的 某 些 内 容 。 正 向 预测 先 
行使 用 ?= 指定 ， 它 匹配 处 于 括号 中 匹配 正则 表达 式 模式 的 起 始点 的 搜索 字符 串 。 反 向 预测 先 
行使 用 ?! 指定 ， 它 匹配 处 于 与 正则 表达 式 模式 不 匹配 的 字符 串 的 起 始点 的 搜索 字符 串 。 


例如 ， 假 设 您 有 一 个 文档 ， 该 文档 包含 指向 Windows 3.1、Windows 95、Windows 98 和 
Windows NT 的 引用 。 再 进一步 假设 ， 您 需要 更 新 该 文档 ， 将 指向 Windows 95、Windows 
98 和 Windows NT 的 所 有 引用 更 改 为 Windows 2000。 下 面 的 正则 表达 式 (这 是 一 个 正 向 预 
测 先 行 的 示例 ) 匹配 Windows 95、Windows 98 和 Windows NT : 


/Windows(?=95 |98 |NT )/ 
找到 一 处 匹配 后 ， 紧 接着 就 在 匹配 的 文本 (不 包括 预测 先行 中 的 字符 ) 之 后 搜索 下 一 处 匹 


配 。 例 如 ， 如 果 上 面 的 表达 式 匹 配 Windows 98， 闻 在 Windows 之 后 而 不 是 在 98 之 后 继续 
搜索 。 


其 他 示例 


下 面 列 出 一 些 正 则 表达 式 示 例 : 


正则 表达 式 
Ab([a-zl+) \1\b/gi 


/w+)j:VV(A:]+)CNd)? 
(克基 


/^(?:Chapter|Section) 
[1-9][0-9]{0, 1}$/ 


/[-a-Z]/ 
/ter\b/ 
MBapt/ 


/Windows(?=95 |98 
INT )/ 


/\s*$/ 
Ad{2}-\d{5}/ 


/<\s(\S+)(\s[*>])?> 
[\s\S]<\sV1\s*>/ 


一 个 单词 连续 出 现 的 位 置 。 


将 一 个 URL 解 析 为 协议 、 域 、 端 口 及 相对 路 径 。 


定位 章节 的 位 置 。 


A 至 z 共 26 个 字母 再 加 一 个 -号 。 
可 匹配 chapter， 而 不 能 匹配 terminal。 
可 匹配 chapter， 而 不 能 匹配 aptitude。 


可 匹配 Windows95 或 Windows98 或 WindowsNT， 当 找到 一 个 匹 
配 后 ， 从 Windows 后 面 开 始 进行 下 一 次 的 检索 匹配 。 


匹配 空 行 。 
验证 由 两 位 数字 、 一 个 连 字符 再 加 5 位 数字 组 成 的 ID 号 。 


匹配 HTML 标记 。 


免责 声明 


W3School 提 供 的 内 容 仅 用 于 培训 。 我 们 不 保证 内 容 的 正确 性 。 通 过 使 用 本 站 内 容 随 之 而 来 的 
风险 与 本 站 无 关 。W3School 简 体 中 文 版 的 所 有 内 容 仅 供 测试 ， 对 任何 法 律 问题 及 风险 不 承担 
任何 责任 。 


